网安 - 专业的网络安全产业、社区、知识平台

防御对抗攻击有以下两种方法：

第一种可以描述为不管有没有对抗样本，模型都能正确分类输入的样本：FGD表示在倒数第二层特征上基于均方根误差训练去噪器，LGD则是在最后一层特征层面基于均方根误差训练去噪器，CGD是在模型输出的概率分布层面用交叉熵损失函数训练去噪器。使用三种方法训练的去噪器可以迫使模型降低误差放大的效果，从而确保模型不会被对抗样本引入的误差逐层放大并干扰输出结果。
第二类可以描述为，在模型输出前添加防火墙，从而过滤对抗样本：迫使网络将干净图像映射到简单分布，而异常样本由于噪声的加入导致其被映射到GMM中后，距离每个簇均值的马氏距离都很远，从而检测到异常样本。实验结果表明，在使用该方法作为防火墙后，模型的防御能力能够获得显著提升。

对抗攻击怎么防御